Эта статья фокусируется на том, чтобы уловить смысл значения текстовых функций понимания естественного языка (NLU) для обнаружения дубликатов неконтролируемых признаков. Особенности NLU сравниваются с лексическими подходами для доказательства подходящей методики классификации. Подход трансфертного обучения используется для обучения извлечению признаков в задаче семантического текстового сходства (STS). Все функции оцениваются с помощью двух типов наборов данных, которые принадлежат отчетам об ошибках Bosch и статьям Википедии. Цель данного исследованияструктурировать последние исследовательские усилия путем сравнения концепций NLU для описания семантики текста и применения их к IR. Основным вкладом данной работы является сравнительное исследование измерений семантического сходства. Экспериментальные результаты демонстрируют результаты функции Term Frequency–Inverse Document Frequency (TF-IDF) для обоих наборов данных с разумным объемом словаря. Это указывает на то, что двунаправленная долговременная кратковременная память (BiLSTM) может изучать структуру предложения для улучшения классификации.
Потребность в эффективных алгоритмах обработки строк возникает во многих практических задачах. Одним из наиболее универсальных подходов является применение суффиксных деревьев. Однако, данная структура имеет высокие требования к памяти, что ограничивает область её применения. В данной статье на примере задачи о максимальной симметричной подстроке рассматривается способ, позволяющий частично устранить данный недостаток. Описанный способ может быть использован и для других задач.
Целью работы является создание алгоритма генерации тезауруса синонимов для названий продуктов. Такие тезаурусы используются в современных поисковых машинах для расширения пользовательского запроса и улучшения качества поиска. При этом подходе из поискового индекса выбираются документы, включающие в себя не только слова, содержащиеся в запросе, но и близкие по смыслу термины. В ходе работы был реализован полуавтоматический метод обучения распознавателя именованных сущностей. Для валидации извлеченных сущностей был предложен метод полуавтоматической валидации.
Методы оценки схожести музыкальных произведений позволяют реализовать полностью автоматическую рекомендательную систему для музыки, ориентированную на содержание (наподобие Pandora, но без ручного труда экспертов-музыковедов). В статье предлагается новый метод оценки схожести гармонии композиций на основе оригинальной графической вероятностной модели. Модель включает в себя информацию об аккорде и ладе для некоторого момента времени звучания композиции; мы вводим скрытую переменную, стиль, от которой зависит вероятность использования определенного аккорда в контексте определенного лада, и предлагаем сравнивать композиции как векторы-параметры распределений для стилей. По аналогии с некоторыми методами извлечения аккордов рассматриваемая модель не включает ни ритмическую информацию, ни зависимости между соседними аккордами. Описывается реализация модели в системе Infer.NET и осуществляется проверка модели на искусственных данных. Результат работы на реальных данных отрицателен, что свидетельствует о том, что простые модели не подходят для задачи оценки схожести.
Цель статьи — познакомить читателя с современным состоянием дел в области автоматического анализа музыкальной гармонии. Мотивацией для исследований в этой области может являться создание автоматических систем рекомендации музыки, ориентированных на содержание (наподобие Pandora, но без ручного труда экспертов-музыковедов). Основное внимание уделено графическим вероятностным моделям как одному из наиболее перспективных подходов, но описываются и альтернативные методы. Рассмотрены работы, использующие марковские цепи, скрытые марковские модели, многоуровневые графические модели. Приведены как работы, моделирующие только гармонию — последовательности аккордов, в некоторых случаях и тональность, — так и работы, включающие в себя информацию о структуре анализируемого произведения (ритмической, голосовой).
1 - 5 из 5 результатов